我们的目标是讨论其在其理论和实践术语中讨论了强化的计划,指出了在讨论计算模拟的优势的同时实施这些时间表的实际限制。在本文中,我们展示了一个名为喙的R脚本,建立了模拟与加固时间表交互的行为速率。使用喙,我们已经模拟了允许评估不同强化反馈功能(RFF)的数据。这是通过无与伦比的精确度制作的,因为模拟提供了巨大的数据样本,更重要的是,它产生的加强不会改变模拟行为。因此,我们可以系统地改变它。我们将不同的RFF与RI​​时间表进行了比较,用作标准:意义,精确,分析和一般性。我们的结果表明,RI计划的最佳反馈函数由BAUM(1981)公布。我们还建议Killeen(1975)使用的模型是RDRL计划的可行反馈函数。我们认为喙铺平了更多了解加强时间表,解决了关于时间表的定量特征的开放问题。此外,他们可以指导将来使用时间表作为理论和方法工具的实验。
translated by 谷歌翻译
Deep Reinforcement Learning (RL) agents are susceptible to adversarial noise in their observations that can mislead their policies and decrease their performance. However, an adversary may be interested not only in decreasing the reward, but also in modifying specific temporal logic properties of the policy. This paper presents a metric that measures the exact impact of adversarial attacks against such properties. We use this metric to craft optimal adversarial attacks. Furthermore, we introduce a model checking method that allows us to verify the robustness of RL policies against adversarial attacks. Our empirical analysis confirms (1) the quality of our metric to craft adversarial attacks against temporal logic properties, and (2) that we are able to concisely assess a system's robustness against attacks.
translated by 谷歌翻译
在过去的几年中,无监督的域适应性(UDA)技术在计算机视觉中具有显着的重要性和流行。但是,与可用于图像的广泛文献相比,视频领域仍然相对尚未探索。另一方面,动作识别模型的性能受到域转移的严重影响。在本文中,我们提出了一种简单新颖的UDA方法,以供视频动作识别。我们的方法利用了时空变压器的最新进展来构建一个强大的源模型,从而更好地概括了目标域。此外,由于引入了来自信息瓶颈原则的新颖对齐损失术语,我们的架构将学习域不变功能。我们报告了UDA的两个视频动作识别基准的结果,显示了HMDB $ \ leftrightArrow $ ucf的最新性能,以及动力学$ \ rightarrow $ nec-Drone,这更具挑战性。这证明了我们方法在处理不同级别的域转移方面的有效性。源代码可在https://github.com/vturrisi/udavt上获得。
translated by 谷歌翻译
这项研究讨论了半监督学习的影响与验证的语言模型,以生成数据到文本。当还补充大规模语言模型时,尚不清楚半监督学习是否仍然有用。这项研究的目的是通过将仅补充语言模型的数据到文本系统与两个数据到文本系统进行比较,这些系统通过数据增强或伪标记的半固定学习方法而富含数据。结果表明,半监督学习会导致多样性指标的得分更高。在输出质量方面,使用伪标记方法扩展数据到文本系统的训练集确实提高了文本质量分数,但是数据增强方法在没有训练设置扩展的情况下得出了与系统相似的分数。这些结果表明,即使也存在语言模型,半监督的学习方法也可以增强产出质量和多样性。
translated by 谷歌翻译
修剪技术已成功地用于神经网络中,以交易稀疏性。但是,网络修剪的影响并不统一:先前的工作表明,数据集中代表性不足类的召回可能会受到更大的负面影响。在这项工作中,我们通过假设模型固有的强化效应来研究回忆中的这种相对扭曲。也就是说,修剪的召回率对于以下召回精度的课程相对较差,相反,它使召回率相对较好,对于上述准确性的课程相对较好。此外,我们提出了一种旨在减弱这种效果的新修剪算法。通过统计分析,我们观察到,我们的算法的强度不那么严重,但是随着相对较困难的任务,较不复杂的模型和更高的修剪比率更为明显。更令人惊讶的是,我们相反观察到具有较低的修剪比的脱敏作用。
translated by 谷歌翻译
马尔可夫决策过程(MDP)是在顺序决策中常用的正式模型。 MDP捕获了可能出现的随机性,例如,通过过渡函数中的概率从不精确的执行器中捕获。但是,在数据驱动的应用程序中,从(有限)数据中得出精确的概率引入了可能导致意外或不良结果的统计错误。不确定的MDP(UMDP)不需要精确的概率,而是在过渡中使用所谓的不确定性集,占此类有限的数据。正式验证社区中的工具有效地计算了强大的政策,这些政策在不确定性集中最坏的情况下,可以证明遵守正式规格,例如安全限制。我们不断地以强大的学习方法与将专用的贝叶斯推理方案与强大策略的计算结合在一起的任何时间学习方法中不断学习MDP的过渡概率。特别是,我们的方法(1)将概率近似为间隔,(2)适应可能与中间模型不一致的新数据,并且可以随时停止(3),以在UMDP上计算强大的策略,以忠实地捕获稳健的策略到目前为止的数据。我们展示了我们的方法的有效性,并将其与在几个基准的实验评估中对UMDP计算出的UMDP进行了比较。
translated by 谷歌翻译
如果神经网络更大,即使所产生的模型过度参数化,神经网络也倾向于通过训练获得更好的准确性。然而,在训练之前,期间或之后,仔细删除此类多余参数也可能会产生具有相似精度甚至提高的模型。在许多情况下,可以通过启发式方法奇怪地实现,就像去除具有最小绝对价值的权重一样 - 即使幅度并不是重量相关性的完美代理。以这样的前提是,从修剪中获得更好的性能取决于删除多个权重的综合效果的考虑,我们重新审视了基于影响的基于撞击的经典方法之一:最佳脑外科医生(obs)。我们提出了一种可拖动的启发式方法,用于求解OBS的组合扩展,其中我们选择了同时删除的权重,以及剩余权重的系统更新。我们的选择方法在高稀疏性下的其他方法优于其他方法,即使与其他方法结合使用,重量更新也是有利的。
translated by 谷歌翻译
由于他们提供的即时和社交交互,社交网络已成为人类的主要信息渠道之一,允许在某些情况下发布每个用户认为相关的内容。这带来了虚假新闻或假新闻的产生,只会寻求产生不确定性,错误信息或歪曲读者的意见。已经表明,人类无法充分识别文章是否真的是一个事实或假新闻,因为这是由于模型而旨在基于数据挖掘和机器学习来表征和识别文章。本文提出了一个三层框架,主要目标是,它是表征假新闻中存在的情绪,并成为未来工作的工具,以确定公众的情绪状态和故意状态。
translated by 谷歌翻译
心脏听诊是用于检测和识别许多心脏病的最具成本效益的技术之一。基于Auscultation的计算机辅助决策系统可以支持他们的决定中的医生。遗憾的是,在临床试验中的应用仍然很小,因为它们中的大多数仅旨在检测音盲局部信号中的额外或异常波的存在,即,仅提供二进制地面真理变量(普通VS异常)。这主要是由于缺乏大型公共数据集,其中存在对这种异常波(例如,心脏杂音)的更详细描述。为基于听诊的医疗建议系统铺平了更有效的研究,我们的团队准备了目前最大的儿科心声数据集。从1568名患者的四个主要听诊位置收集了5282个录音,在此过程中,手动注释了215780人的心声。此外,并且首次通过专家注释器根据其定时,形状,俯仰,分级和质量来手动注释每个心脏杂音。此外,鉴定了杂音的听诊位置以及杂音更集中检测到杂音的位置位置。对于相对大量的心脏声音的这种详细描述可以为新机器学习算法铺平道路,该算法具有真实世界的应用,用于检测和分析诊断目的的杂波。
translated by 谷歌翻译
Since a lexicon-based approach is more elegant scientifically, explaining the solution components and being easier to generalize to other applications, this paper provides a new approach for offensive language and hate speech detection on social media. Our approach embodies a lexicon of implicit and explicit offensive and swearing expressions annotated with contextual information. Due to the severity of the social media abusive comments in Brazil, and the lack of research in Portuguese, Brazilian Portuguese is the language used to validate the models. Nevertheless, our method may be applied to any other language. The conducted experiments show the effectiveness of the proposed approach, outperforming the current baseline methods for the Portuguese language.
translated by 谷歌翻译